Détection de groupes atypiques pour une variable cible quantitative
نویسندگان
چکیده
Résumé. Une tâche importante en analyse des données est la compréhension de comportements inattendus ou atypiques de groupes d’individus. Quelles sont les catégories d’individus qui gagnent de particulièrement forts salaires ou au contraire, quelles sont celles qui ont de très faibles salaires ? Nous présentons le problème d’extraction de tels groupes atypiques vis-à-vis d’une variable cible quantitative, comme par exemple la variable ′′salaire′′, et plus particulièrement pour les faibles et fortes valeurs d’un intervalle déterminé par l’utilisateur. Il s’agit donc de rechercher des conjonctions de variables dont la distribution diffère significativement de celle de l’ensemble d’apprentissage pour les faibles et fortes valeurs de l’intervalle de cette variable cible. Une adaptation d’une mesure statistique existante, l’intensité d’inclination, nous permet de découvrir de tels groupes atypiques. Cette mesure nous libère de l’étape de transformation des variables quantitatives, à savoir l’étape de discrétisation suivie d’un codage disjonctif complet. Nous proposons donc un algorithme d’extraction de tels groupes avec des règles d’élagage pour réduire la complexité du problème. Cet algorithme a été développé et intégré au logiciel d’extraction de connaissances WEKA. Nous terminons par un exemple d’extraction sur la base de données IPUMS du bureau de recensement américain.
منابع مشابه
Détection de séquences atypiques basée sur un modèle de Markov d'ordre variable
Résumé. Récemment, le nombre et le volume des bases de données séquentielles biologiques ont augmenté de manière considérable. Dans ce contexte, l’identification des anomalies est essentielle. La plupart des approches pour les extraire se fondent sur une base d’apprentissage ne contenant pas d’outlier. Or, dans de très nombreuses applications, les experts ne disposent pas d’une telle base. De p...
متن کاملAlgorithme semi-interactif pour la sélection de dimensions
Résumé. Nous présentons un algorithme génétique semi-interactif de sélection de dimensions dans les grands ensembles de données pour la détection d'individus atypiques (outliers). Les ensembles de données possédant un nombre élevé de dimensions posent de nombreux problèmes aux algorithmes de fouille de données, une solution est d'effectuer un pré-traitement afin de ne retenir que les dimensions...
متن کاملUn algorithme de classification topographique non supervisée à deux niveaux simultanés
Résumé. Une des questions les plus importantes pour la plupart des applications réelles de la classification est de déterminer un nombre approprié de groupes (clusters). Déterminer le nombre optimal de groupes est un problème difficile, puisqu’il n’y a pas de moyen simple pour connaître ce nombre sans connaissance a priori. Dans cet article, nous proposons un nouvel algorithme de classification...
متن کاملSVM et visualisation pour la fouille de grands ensembles de données
Résumé. Nous présentons un algorithme de SVM et des méthodes graphiques pour le traitement de grands ensembles de données. Pour pouvoir traiter de tels ensembles de données, nous utilisons une représentation des données de plus haut niveau (sous forme symbolique). L’algorithme de séparateur à vaste marge (SVM) est adapté pour pouvoir traiter ce nouveau type de données. Nous construisons un nouv...
متن کاملDifferential Item Functioning Detection with Logistic Regression
résumé – Détection du fonctionnement différentiel d’items par régression logistique La régression logistique a été utilisée comme une méthode d’identification du DIF dans différents contextes. Certaines études ont montré que cette procédure peut être affectée par des variables comme le ratio des tailles entre groupes, la taille de l’échantillon, et qu’elle semble liée avec les gammes de difficu...
متن کامل